Model Selection

SigLIP Visual Encoding

# SigLIP Visual Encoding

Smolvlm 500M Anime Caption V0.2

A vision-language model specialized in describing anime-style images, fine-tuned based on SmolVLM-500M-Base

Image-to-Text English

Vit So400m Patch14 Siglip 378.webli

A vision Transformer model based on SigLIP, containing only an image encoder, utilizing the original attention pooling mechanism.

Image Classification

Llm Jp 3 Vila 14b

A large-scale vision-language model developed by Japan's National Institute of Informatics, supporting Japanese and English with strong image understanding and text generation capabilities.

Image-to-Text Japanese

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase